强化学习 MOC

学习笔记强化学习 MOC

创建于 2026-05-09

Abstract

这是整个强化学习笔记库的导航页（Map of Content）。建议把它作为 Obsidian 主页或常驻收藏页使用。

1. 学习主线

强化学习的主线可以压缩成一句话：

智能体在环境中连续做决策，通过奖励信号学习一个能够最大化长期期望回报的策略。

围绕这句话，当前笔记库按以下顺序展开：

这些笔记不是主线课程，但用来解决学习中最容易卡住的地方：

强化学习基本思想
    ↓
MDP（问题建模）
    ↓
回报 / V / Q（长期价值评估）
    ↓
Bellman 方程（递推核心）
    ↓
动态规划（已知模型时求解最优策略）

你也可以理解成三层结构：

Summary

强化学习的核心不在于“背算法”，而在于先建立一种新的看问题方式： **状态是什么，动作是什么，奖励是什么，长期价值如何递推，策略如何据此改进。**

当前这套笔记是前 5 课的基础版，后续最自然的扩展顺序是：

你后面继续学时，建议保持同样的命名方式往下接： - 09 第6课 ... - 10 第7课 ...